講義資料内下:Rを扱う時についつい忘れがちなことを記載しています.焦った時に確認しましょう.
以下シラバス
現代社会はデータに満ちあふれている.これからの時代はデータとの適切な「付き合い方」ができなければ生き抜くことは困難であろう.将来,どのような進路を選ぶにしろ,データから離れて暮らすことは困難である.
この授業では,データを適切に分析する手法の学修を目的としてフリーソフトであるRを用いて,データの加工,Rマークダウンによるドキュメント生成および実証分析の基礎を学ぶ.あわせて,科学における再現可能性の重要性について学ぶ.
なお,「データ解析論I」は「データ解析論II」とあわせて履修することで社会調査士資格<E>区分の認定科目となっている.社会調査士取得を目指す学生は確認しておくこと.
到達目標は以下の通りである.
※ただし,履修者の状況により内容を一部変更することがある.
この授業ではRおよびRStudioを用いる.授業でも紹介するが,自宅のPCでもRおよびRStudioをインストールしておくこと.
この授業では,各自の興味関心にあわせてアンケートを収集し,それに関する分析を通じて分析手法を学ぶ.広く一般市民を対象として調査したいアンケート項目を第2講までに考えてくること.
特になし,資料を用意する.
適宜紹介する.
平常点30%,小課題20%,プレゼンテーション50%
- 平常点:授業評価アンケート,その他授業中に行う調査等の回答状況などの授業への積極性を評価する.
- 小課題:スキルチェックのための簡単な課題を課す.
- プレゼンテーション:学期末に実施する.
社会調査士資格<E>区分の認定科目である.<F>科目と選択必修であり,本講義は「データ解析論II」と併せて履修することで<E>科目として認定される.
以下シラバス
データ解析論IIでは,データ解析論Iで学んだ統計手法をもとに,フリーソフトであるRを用いて,より発展的な分析手法について学ぶ.
具体的には,一般化線形モデル,一般化線形混合モデルや因子分析,時系列分析といった分析手法から,ランダム化比較実験,マッチング法,不連続回帰,操作変数法といった実験・調査・分析デザインに関わる話題まで触れる.
なお,「データ解析論II」は「データ解析論I」とあわせて履修することで社会調査士資格<E>区分の認定科目となっている.社会調査士取得を目指す学生は確認しておくこと.
到達目標は以下の通りである.
※ただし,履修者の状況により内容を一部変更することがある.
データ解析論Iの履修を前提とする.
この授業ではRおよびRStudioを用いる.授業でも紹介するが,自宅のPCでもRおよびRStudioをインストールしておくこと.
この授業では,各自の興味関心にあわせてアンケートを収集し,それに関する分析を通じて分析手法を学ぶ.広く一般市民を対象として調査したいアンケート項目を第2講までに考えてくること.
特になし,資料を用意する.
適宜紹介する.
平常点30%,小課題20%,プレゼンテーション50%
- 平常点:授業評価アンケート,その他授業中に行う調査等の回答状況などの授業への積極性を評価する.
- 小課題:スキルチェックのための簡単な課題を課す.
- プレゼンテーション:学期末に実施する.
社会調査士資格<E>区分の認定科目である.<F>科目と選択必修であり,本講義は「データ解析論I」と併せて履修することで<E>科目として認定される.
jibanyan_equation <- function(x,y) {
min(max(min(1-(x/108)^2-(y/94)^2,y),min(1-((abs(x)-119)/103)^2-((y-56)/86)^2,1-((abs(x)-15)/77)^2-((y-119)/100)^2),1-((abs(x)-42)/66)^2-(y/55)^2,min(55+y,51-abs(x),-y)),3*abs(y-100)-2*(x-75)) *
min(min(max(min(1-(x/106)^2-(y/92)^2,y),min(1-((abs(x)-119)/101)^2-((y-56)/84)^2,((abs(x)-99)/40)^2+((y-54)/86)^2-1,92-abs(x)),1-((abs(x)-42)/64)^2-(y/53)^2),min(((abs(x)-52)/26)^2+((y+28)/26)^2-1,((abs(x)-51)/13)^2+(y/13)^2-1,max(abs(x)-51,y))),abs(x/51+10/51*sin(abs(y/61.2)^(1.2)*pi*(7/2)))^(2/3)+abs(y/61.2)^(2/3)-1) *
min(1-(x/32)^2-((y+30)/32)^2,1-((abs(x)+5)/22)^2-((y-18)/22)^2) *
min(1-((abs(x)-18)/20)^2-((y+10)/20)^2,((abs(x)-20)/22)^2+((y+7)/20)^2-1) *
(1-((abs(x)-51)/11)^2-(y/11)^2)
}
x <- seq(-150, 150, length=400)
z <- outer(x,x, Vectorize(jibanyan_equation))
contour(x,x,z, drawlabels=FALSE, levels=0)こんなこともできる.
「帰無仮説」と「対立仮説」および「データの分類」を復習しておくとよいでしょう.
この辺は基本的なことでもあるので,軽く復習しておきましょう.
| 量的/質的 | データの名称 | 測定尺度 | 直接できる演算 | 主な代表値 |
|---|---|---|---|---|
| 量的データ | 比率データ | 比率尺度 | +-×÷ | 各種平均 |
| 量的データ | 間隔データ | 間隔尺度 | +- | 算術平均 |
| 質的データ | 順位データ | 順位尺度 | >= | 中央値 |
| 質的データ | カテゴリデータ | 名義尺度 | 度数カウント | 最頻値 |
(参考:入門統計学-検定から多変量解析・実験計画法まで-(栗原伸一))
library(readr)
exdataset <- read_csv("/Users/akira/Dropbox/Education/2019MEIJI/[3_Wed2]Data_Analytics/analysis/data/exdataset.csv")
library(ggplot2)
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))
## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))[1] 2.345872
主観的幸福度(SUB_HAP)のヒストグラム
10dai 20dai 30dai 40dai 50dai 60dai 70dai
8 140 361 358 77 18 1
Skim summary statistics
n obs: 963
n variables: 54
| variable | missing | complete | n | min | max | empty | n_unique |
|---|---|---|---|---|---|---|---|
| F_FGR | 0 | 963 | 963 | 7 | 9 | 0 | 11 |
| F_GEN | 0 | 963 | 963 | 5 | 5 | 0 | 7 |
| F_GEN_2 | 0 | 963 | 963 | 4 | 5 | 0 | 12 |
| F_INK | 0 | 963 | 963 | 2 | 10 | 0 | 10 |
| F_INS | 0 | 963 | 963 | 2 | 10 | 0 | 11 |
| F_SEX | 0 | 963 | 963 | 4 | 6 | 0 | 3 |
| F_TAN | 0 | 963 | 963 | 5 | 15 | 0 | 13 |
| SEX_NIN | 340 | 623 | 963 | 5 | 10 | 0 | 12 |
| SEX_OBJ | 157 | 806 | 963 | 4 | 5 | 0 | 4 |
| variable | missing | complete | n | n_unique | top_counts |
|---|---|---|---|---|---|
| ARE | 0 | 963 | 963 | 8 | Kan: 376, Kin: 165, Chu: 148, Kyu: 92 |
| CHI | 0 | 963 | 963 | 2 | Chi: 495, NoC: 468, NA: 0 |
| MAR | 0 | 963 | 963 | 2 | Mar: 569, Not: 394, NA: 0 |
| ordered |
|---|
| FALSE |
| FALSE |
| FALSE |
| variable | missing | complete | n | mean | sd | p0 | p25 | p50 |
|---|---|---|---|---|---|---|---|---|
| DED_JIG | 0 | 963 | 963 | 2.32 | 0.83 | 1 | 2 | 2 |
| DED_KIS | 0 | 963 | 963 | 3 | 0.77 | 1 | 3 | 3 |
| DED_PUN | 0 | 963 | 963 | 2.74 | 0.84 | 1 | 2 | 3 |
| DED_SHI | 0 | 963 | 963 | 2.54 | 0.87 | 1 | 2 | 3 |
| DED_TEN | 0 | 963 | 963 | 2.41 | 0.84 | 1 | 2 | 2 |
| DIC_FRI | 0 | 963 | 963 | 3.47 | 2.62 | 0 | 1 | 3 |
| DIC_OTH | 0 | 963 | 963 | 0.9 | 1.85 | 0 | 0 | 0 |
| DIC_PAR | 0 | 963 | 963 | 5.65 | 3.34 | 0 | 4 | 5 |
| F_INK_cen | 67 | 896 | 963 | 2.83 | 2.6 | 0 | 1 | 3 |
| F_INS_cen | 166 | 797 | 963 | 5.63 | 3.33 | 0 | 3 | 5 |
| ID | 0 | 963 | 963 | 482 | 278.14 | 1 | 241.5 | 482 |
| KAN_KYK | 0 | 963 | 963 | 3.02 | 0.58 | 1 | 3 | 3 |
| KAN_PRD | 0 | 963 | 963 | 2.23 | 0.81 | 1 | 2 | 2 |
| KAN_SEC | 0 | 963 | 963 | 2.28 | 0.82 | 1 | 2 | 2 |
| KAN_SUP | 0 | 963 | 963 | 2.18 | 0.86 | 1 | 2 | 2 |
| KAN_THI | 0 | 963 | 963 | 2.03 | 0.82 | 1 | 1 | 2 |
| PRE | 0 | 963 | 963 | 20.01 | 11.44 | 1 | 12 | 15 |
| SEX_IMP | 143 | 820 | 963 | 3.79 | 1.51 | 1 | 3 | 4 |
| SEX_IMP_num | 143 | 820 | 963 | 3.79 | 1.51 | 1 | 3 | 4 |
| SEX_MAS | 379 | 584 | 963 | 4.27 | 2.83 | 0 | 2 | 5 |
| SEX_MAS_nen | 379 | 584 | 963 | 80.78 | 137.85 | 0 | 2 | 26 |
| SEX_NIN_cen | 340 | 623 | 963 | 10.36 | 18.58 | 0 | 2.5 | 4.5 |
| SEX_NNA | 0 | 963 | 963 | 1.48 | 1.72 | 0 | 0 | 1 |
| SEX_SEX | 407 | 556 | 963 | 3.4 | 2.13 | 0 | 1 | 4 |
| SEX_SEX_nen | 407 | 556 | 963 | 26.26 | 66.56 | 0 | 1 | 12 |
| SPN_FEA | 0 | 963 | 963 | 2.96 | 0.81 | 1 | 3 | 3 |
| SPN_IMP | 0 | 963 | 963 | 3.44 | 0.68 | 1 | 3 | 4 |
| SPN_LIV | 0 | 963 | 963 | 2.88 | 0.8 | 1 | 2 | 3 |
| SPN_THK | 0 | 963 | 963 | 2.84 | 0.77 | 1 | 2 | 3 |
| SPN_UNM | 0 | 963 | 963 | 2.36 | 0.84 | 1 | 2 | 2 |
| SUB_HAP | 0 | 963 | 963 | 6 | 2.35 | 0 | 5 | 6 |
| SUB_SAT | 0 | 963 | 963 | 5.43 | 2.42 | 0 | 4 | 5 |
| SUB_SLP | 0 | 963 | 963 | 5.93 | 2.52 | 0 | 4 | 6 |
| TRU_FRI | 0 | 963 | 963 | 5.05 | 2.94 | 0 | 3 | 5 |
| TRU_OTH | 0 | 963 | 963 | 2.72 | 2.73 | 0 | 0 | 2 |
| TRU_PAR | 0 | 963 | 963 | 6.55 | 3.24 | 0 | 5 | 5 |
| ULT_PRO_FRI | 0 | 963 | 963 | 4.55 | 1.81 | 0 | 4 | 5 |
| ULT_PRO_OTH | 0 | 963 | 963 | 3.13 | 2.38 | 0 | 0 | 4 |
| ULT_PRO_PAR | 0 | 963 | 963 | 5.52 | 2.51 | 0 | 5 | 5 |
| ULT_REC_FRI | 0 | 963 | 963 | 3.44 | 2.03 | 0 | 2 | 4 |
| ULT_REC_OTH | 0 | 963 | 963 | 2.86 | 2.49 | 0 | 0 | 3 |
| ULT_REC_PAR | 0 | 963 | 963 | 3.82 | 2.71 | 0 | 1 | 5 |
| p75 | p100 | hist |
|---|---|---|
| 3 | 4 | ▃▁▇▁▁▆▁▁ |
| 3 | 4 | ▁▁▂▁▁▇▁▃ |
| 3 | 4 | ▂▁▃▁▁▇▁▂ |
| 3 | 4 | ▂▁▅▁▁▇▁▂ |
| 3 | 4 | ▃▁▇▁▁▇▁▂ |
| 5 | 10 | ▆▂▅▇▁▁▁▂ |
| 1 | 10 | ▇▁▁▁▁▁▁▁ |
| 10 | 10 | ▃▁▂▇▁▁▁▆ |
| 5 | 20 | ▇▇▁▁▁▁▁▁ |
| 7 | 20 | ▁▇▃▁▁▁▁▁ |
| 722.5 | 963 | ▇▇▇▇▇▇▇▇ |
| 3 | 4 | ▁▁▁▁▁▇▁▂ |
| 3 | 4 | ▃▁▇▁▁▇▁▁ |
| 3 | 4 | ▃▁▇▁▁▇▁▁ |
| 3 | 4 | ▅▁▇▁▁▆▁▁ |
| 3 | 4 | ▅▁▇▁▁▅▁▁ |
| 27 | 47 | ▃▆▇▃▅▂▂▂ |
| 5 | 7 | ▂▃▅▇▁▆▂▁ |
| 5 | 7 | ▂▃▅▇▁▆▂▁ |
| 7 | 9 | ▇▂▁▅▃▅▆▃ |
| 130 | 730 | ▇▂▁▁▁▁▁▁ |
| 9 | 101 | ▇▁▁▁▁▁▁▁ |
| 3 | 5 | ▇▂▁▂▂▁▂▂ |
| 5 | 9 | ▇▃▃▆▅▅▂▁ |
| 26 | 730 | ▇▁▁▁▁▁▁▁ |
| 3 | 4 | ▁▁▂▁▁▇▁▃ |
| 4 | 4 | ▁▁▁▁▁▆▁▇ |
| 3 | 4 | ▁▁▃▁▁▇▁▃ |
| 3 | 4 | ▁▁▂▁▁▇▁▂ |
| 3 | 4 | ▃▁▇▁▁▇▁▂ |
| 8 | 10 | ▂▁▂▇▅▆▅▅ |
| 7 | 10 | ▂▂▃▇▃▅▃▂ |
| 8 | 10 | ▁▁▃▇▃▅▅▅ |
| 6 | 10 | ▂▂▃▇▁▁▁▃ |
| 5 | 10 | ▇▂▃▅▁▁▁▁ |
| 10 | 10 | ▂▁▂▆▁▁▁▇ |
| 5 | 10 | ▁▁▁▇▁▁▁▁ |
| 5 | 10 | ▆▁▂▇▁▁▁▁ |
| 6 | 10 | ▁▁▁▇▁▁▁▂ |
| 5 | 10 | ▃▂▃▇▁▁▁▁ |
| 5 | 10 | ▇▂▂▇▁▁▁▁ |
| 5 | 10 | ▅▁▂▇▁▁▁▂ |
## テキストの修飾
*イタリック*
_イタリック_
**太字**
__太字__
~~取り消し~~
# 見出し1
## 見出し2
### 見出し3
#### 見出し4
##### 見出し5
###### 見出し6
# 数字なし箇条書き
* Item 1
* Item 2
* Item 2.1
* Item 2.2
# 数字あり箇条書き
1. Item 1
2. Item 2
1. Item 2.1
2. Item 2.2
# 改行
今日は
いい天気ですね。
文章中で改行をしたい場合には、半角スペースを3つ打つ。
#リンク
http://www.yahoo.co.jp
はヤフーのURL
[こちら](http://www.yahoo.co.jp)からヤフーに行けます。
# 引用文
学長は
> 今日の天気はよろしくない
と、おっしゃった
> 学長は
> > 今日の天気はよろしくない
> と、おっしゃった
という発言は、間違いである。とごとうは言った。
# コードブロック
ここに書かれているのはコードです。
Rにおける合計を求める関数は`sum()`です。
## 数式
$$1 + 1 = 2$$
$$x * y = 15$$
$$(身長) = (体重)\beta + \alpha + \epsilon_i $$
## 水平線
***
今日のお昼ご飯は何にしようかなぁ。
もう、最近仕事だらけでのんびりしたいなぁ。。。
---
| CHI | Kanto | Hokkaido | Tohoku | Chubu | Kinki | Chugoku | Shikoku | Kyushu |
|---|---|---|---|---|---|---|---|---|
| NoChild | 192 | 14 | 35 | 68 | 79 | 31 | 10 | 39 |
| Child | 184 | 21 | 29 | 80 | 86 | 34 | 8 | 53 |
引き続きクロス集計について学ぶ.
\[ \LARGE Y_i = \alpha + \beta_1 X_1 + \epsilon_i \]
\[ \LARGE Y_i = \alpha + \beta_1 X_1 + \epsilon_i \]
\[ \LARGE Y_i = \alpha + \beta_1 生活満足度 + \epsilon_i \]
Call:
lm(formula = SUB_HAP ~ SUB_SAT, data = exdataset)
Residuals:
Min 1Q Median 3Q Max
-7.8918 -0.6503 -0.0814 0.7289 6.4015
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.59853 0.10176 15.71 <2e-16 ***
SUB_SAT 0.81036 0.01711 47.37 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.285 on 961 degrees of freedom
Multiple R-squared: 0.7002, Adjusted R-squared: 0.6999
F-statistic: 2244 on 1 and 961 DF, p-value: < 2.2e-16
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 1.599 | 0.1018 | 15.71 | 1.156e-49 |
| SUB_SAT | 0.8104 | 0.01711 | 47.37 | 1.337e-253 |
\[ \LARGE Y_i = 1.598528 + 0.8103607 X_1 + \epsilon_i \]
library(ggplot2)
library(dplyr)
graph <- exdataset %>% ggplot(aes(x=MAR, y=SUB_HAP)) +
geom_point(stat = 'summary', fun.y = 'mean') +
geom_errorbar(stat = 'summary', fun.data = 'mean_se',
width=0, fun.args = list(mult = 1.96)) +
theme_bw()+ylim(0,10)
graph
Welch Two Sample t-test
data: SUB_HAP by MAR
t = -10.854, df = 808.29, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.88094 -1.30479
sample estimates:
mean in group NotMarried mean in group Married
5.060914 6.653779
| Test statistic | df | P value | Alternative hypothesis |
|---|---|---|---|
| -10.85 | 808.3 | 1.03e-25 * * * | two.sided |
| mean in group NotMarried | mean in group Married |
|---|---|
| 5.061 | 6.654 |
一般線形モデルではこんなモデル式から考える,というような話をしたかと思います.
\[Y_i=\alpha+\beta_1 X_1 + \epsilon_i \]
回帰分析では\(Y_i\)と\(X_1\)が共に量的変数であった場合を示していました.しかし,例えば\(X_1\)に入れたいのが未婚者か既婚者,という名義変数だったとします.この場合は,未婚者に対して0,既婚者に対して1という数字を割り当てると以下のように理解することができます.
数式の\(X_1\)に0を代入しましょう.
\[Y_i=\alpha+\epsilon_i \] こうすると,係数がなくなってしまいました.従って切片のみになります.
数式の\(X_1\)に1を代入しましょう.
\[Y_i= \alpha+\beta_1 +\epsilon_i \]
こうすると未婚者に比べて,\(X_1\)の係数のみが増えています.したがって,0を代入した未婚者に比べて,既婚者の方が\(\beta_1\)の分だけ変化していることがわかります.
このように,0と1の数字を用いることで,0を割り振られたグループと1を割り振られたグループの間に差が存在するのか否かを評価することができます.
さらに,その「差」がどの程度あるのかも比較することができます.ここでは,主観的幸福度に未婚者と既婚者の間に差があるのか否か検証していきましょう.
Call:
lm(formula = SUB_HAP ~ MAR, data = exdataset)
Residuals:
Min 1Q Median 3Q Max
-6.6538 -1.6538 0.3462 1.3462 4.9391
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.0609 0.1115 45.41 <2e-16 ***
MARMarried 1.5929 0.1450 10.99 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.212 on 961 degrees of freedom
Multiple R-squared: 0.1116, Adjusted R-squared: 0.1106
F-statistic: 120.7 on 1 and 961 DF, p-value: < 2.2e-16
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 5.061 | 0.1115 | 45.41 | 2.223e-241 |
| MARMarried | 1.593 | 0.145 | 10.99 | 1.571e-26 |
\[ \LARGE Y_i = 5.0609137 + 1.5928649 X_1 + \epsilon_i \]
\[ \LARGE Y_i = \alpha + \beta_1 X_1+ \beta_2 X_2+ \beta_3 X_3+... + \epsilon_i \]
| モデル式 | モデル名 | 説明変数 | 応答変数 |
|---|---|---|---|
| \[Y_i=\beta_1X_1+\alpha_i+\epsilon_i\] | 1要因分散分析 | 名義変数 | 量的変数 |
| \[Y_i=\beta_1X_1+\beta_2X_2+\alpha_i+\epsilon_i\] | 2要因分散分析 | 名義変数 | 量的変数 |
| \[Y_i=\beta_1X_1+\alpha_i+\epsilon_i\] | 単回帰分析 | 量的変数 | 量的変数 |
| \[Y_i=\beta_1X_1+\beta_2X_2+…+\alpha_i+\epsilon_i\] | 重回帰分析 | 量的/名義変数 | 量的変数 |
| \[Y_i=\beta_1X_1+\beta_2X_2+\alpha_i+\epsilon_i\] | 共分散分析 |
2要因分散分析に進みたいと思います.2要因分散分析とは,複数の要因による影響を分析するものです.例えば,主観的幸福度は子の有無(1,0のダミー変数)だけでなく,結婚しているか否か(1, 0のダミー変数)によっても影響を受ける可能性があります.これを用いると「子がいない未婚者」「子がいない既婚者」「子がいる未婚者」「子がいる既婚者」の計4つの状態があります.
したがって,これらが影響を与えているかどうかを明らかにするために,いずれの要因についても投入したモデル式について考えたいと思います.ここでは,次のようなモデル式を考えたいと思います.
\[ \LARGE Y_i = \alpha + \beta_1 X_1+ \beta_2 X_2+ \beta_3X_2*X_3+... + \epsilon_i \]
このモデル式によって,「4つの状態」を分析することができます.一度整理してみましょう.
\(X_1 =1とX_2 =1\)の場合
\[Y_i= \alpha+ \beta_1 +\beta_2 +\beta_3 + \epsilon_i \]
「組み合わさることにより効果が変化する」ことを「交互作用」といいます.
\(X_1 =0とX_2 =0\)の場合 \[Y_i= \alpha+\epsilon_i \]
重回帰分析を行う場合には,多重共線性(マルチコ)を確認する必要がある.
多重共線性(Multicollinearity):説明変数同士の相関関係が大きすぎると適切な分析結果を導けない.そのために,VIF(Variance Inflation Factor:分散拡大要因)を指標として検討する.
* 重回帰分析におけるモデル選択方法: - 検定によるモデル選択 - AICによるモデル選択 - 決定係数によるモデル選択
提供されたデータを用いて,当初設定した興味があるテーマについて分析し,発表をする.
統計について
再現性の議論について
分析の一連の流れについて
計量経済について * Heiss, Florian, 2016, “Using R for Introductory Econometrics”, Amazon Digital Services - 洋書.Rを用いた計量経済学入門の教科書だが,手を動かしながら学んでいくことができる.
Rによる統計 * Rjpwiki - Rに関する基礎知識の共有などが図られている.
RMarkdownの使い方
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 主観的幸福度 | SUB_HAP | 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* | 0点「とても不幸せ」-10点「とても幸せ」 |
| 生活満足度 | SUB_SAT | あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? | 0点「とても不満足」-10点「とても満足」 |
| 生活満足度 | SUB_SLP | あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? | 0点「全く眠れていない」-10点「とても眠れている」 |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 主観的幸福度 | DIC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| DG友人条件 | DIC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| DG他者条件 | DIC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 最終提案提案者両親条件 | ULT_PRO_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案提案者友人条件 | ULT_PRO_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案提案者他者条件 | ULT_PRO_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい. あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 最終提案応答者両親条件 | ULT_REC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案応答者友人条件 | ULT_REC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案応答者他者条件 | ULT_REC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 信頼両親条件 | TRU_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 信頼友人条件 | TRU_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 信頼他者条件 | TRU_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 自然運命 | SPN_UNM | 何かの大きな力に自分の運命は動かされているように感じることがある. | 1全くそう思わない-4非常にそう思う |
| 自然感謝 | SPN_THK | 自然などの人間を超えた力に感謝の気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然恐怖 | SPN_FEA | 自然などの人間を超えた力に恐れの気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然生存 | SPN_LIV | 自然などの人間を超えた力によって,生かされていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | SPN_IMP | 自然は大切な存在である. | 1全くそう思わない-4非常にそう思う |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 第2者被監視感 | KAN_SEC | 日常生活の中で,直接誰か(人間)に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第3者被監視感 | KAN_THI | 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 超自然的被監視感 | KAN_SUP | 日常生活の中で,超自然的な存在に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第2者被監視感 | KAN_PRD | 無機物の中に,人間の表情のようなものを見出すことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | KAN_KYK | 人に対して共感をすることがある. | 1全くそう思わない-4非常にそう思う |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 死後世界 | DED_SHI | 「死後の世界」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天国 | DED_TEN | 「天国」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 地獄 | DED_JIG | 「地獄」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 奇跡 | DED_KIS | 「奇跡」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天罰 | DED_PUN | 「天罰」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
以下の質問についてお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 性衝動 | SEX_IMP,SEX_IMP_num(数値,欠損値有り) | あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. | 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない. |
| 自慰回数 | SEX_MAS,SEX_MAS_nen(年間回数): | あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性交渉回数 | SEX_SEX,SEX_SEX_nen(年間回数) | あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性衝動対象 | SEX_OBJ | あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. | 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない |
| 天罰 | SEX_NIN,SEX_NIN_cen(中央値) | あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. | 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」 |
| 性情報開示 | SEX_NNA | 性情報に対して開示しなかった個数 | 上記5つについて答えたくないを選んだ個数 |
あなたのことについて教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 性別 | F_SEX | あなたの性別を教えて下さい. | 1.男性, 2.女性,3.その他 |
| 世代 | F_GEN | あなたの年齢を教えて下さい. | 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降 |
| 最終学歴 | F_FGR | あなたの最終学歴を教えて下さい. | 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了 |
| 個人収入 | F_INK,F_INK_cen(中央値,百万円) | あなた個人の年収を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 世帯収入 | F_INS,F_INS_cen(中央値,百万円) | あなたの世帯での収入の合計を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 回答端末 | F_TAN | あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. | 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他 |
| 都道府県 | PRE | あなたのお住まいの県を教えて下さい. | 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 地域 | ARE | 都道府県から地域に変換 | 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 未既婚 | MAR | あなたはご結婚されていますか? | NotMarried:未婚,Married:既婚 |
| 子の有無 | CHI | あなたはお子さんがいらっしゃいますか? | NoChild:いない,Child:いる |
---
title: "データ解析論I第1講"
output:
flexdashboard::flex_dashboard:
orientation: columns
source_code: embed
theme: journal
toc: true
toc_depth: 2
fig_mobile: true
highlight: pygments
css: styles_customized.css
---
```{r setup, include=FALSE}
library(flexdashboard)
```
# 講義資料 {data-width=650}
## メイン資料 {.tabset .tabset-fade}
### 講義資料の見方
#### 1番上のタブについて
* 講義資料:その回の授業で主に扱う資料を記載している.
* 演習問題:その回の授業で扱う演習問題を記載している.
* データの概要:用いるデータの変数名等を掲載している.
- 複数データを用いる場合はデータ名が表示することがある.
#### 2番目のタブについて
* 講義資料内:講義内でのあるテーマを示している.
- 大体,毎回の授業で2つから3つを目標としている.
- 今回は各回の講義のハイライトを取り上げているから少し多めになっている.
* 演習問題内:多分タブで複数に分かれることはないでしょう.
* データの概要:多分タブで複数に分かれることはないでしょう.
#### 右側のタブについて
* 講義資料内上:毎回の授業で必ず覚えて帰らないといけないこと.
- 一番重要なことなので,しっかりと覚えておきましょう.
* 講義資料内下:Rを扱う時についつい忘れがちなことを記載しています.焦った時に確認しましょう.
* 演習問題内:毎回の演習問題のヒントです.
- 問題を説いていて,わからないときに確認しましょう.
### データ解析論Iについて
#### シラバスの要約
* データとの付き合い方を学ぶために,Rを使って分析手法を学ぶ.
- Rを使いやすくするためにRStudioを使用する.
* 分析手法として,**回帰分析**,**t検定**,**重回帰分析**を学ぶ.
- その他,再現可能性の担保およびレポート作成のために,技術として**RMarkdown**を学ぶ.
* 最後はプレゼンテーションを評価する.
- プレゼンテーション資料をもとにしたレポート資料についても評価する.
* **社会調査士資格<E>区分の認定科目である.**
- <F>科目と選択必修であり,本講義は「データ解析論II」と併せて履修することで<E>科目として認定される.
*以下シラバス*
***
#### 授業の概要・到達目標
現代社会はデータに満ちあふれている.これからの時代はデータとの適切な「付き合い方」ができなければ生き抜くことは困難であろう.将来,どのような進路を選ぶにしろ,データから離れて暮らすことは困難である.
この授業では,データを適切に分析する手法の学修を目的としてフリーソフトであるRを用いて,データの加工,Rマークダウンによるドキュメント生成および実証分析の基礎を学ぶ.あわせて,科学における再現可能性の重要性について学ぶ.
なお,「データ解析論I」は「データ解析論II」とあわせて履修することで社会調査士資格<E>区分の認定科目となっている.社会調査士取得を目指す学生は確認しておくこと.
到達目標は以下の通りである.
1. 各統計手法について,その目的と意義を説明することができる.
2. 各統計手法について,各自で分析を実行できる.
3. 分析結果について,適切に他者に説明できる.
#### 授業内容
* 【第1講】イントロダクション
* 【第2講】アンケート項目の検討・データの整理①
* 【第3講】データの整理②
* 【第4講】RMarkdownの記法①
* 【第5講】RMarkdownの記法②
* 【第6講】実証分析の手続き・クロス集計表の作成①
* 【第7講】クロス集計表の作成②
* 【第8講】(単)回帰分析
* 【第9講】t検定
* 【第10講】重回帰分析①
* 【第11講】重回帰分析②
* 【第12講】重回帰分析③
* 【第13講】モデル選択・発表準備
* 【第14講】プレゼンテーション
※ただし,履修者の状況により内容を一部変更することがある.
#### 履修上の注意
この授業ではRおよびRStudioを用いる.授業でも紹介するが,自宅のPCでもRおよびRStudioをインストールしておくこと.
#### 準備学習(予習・復習等)の内容
この授業では,各自の興味関心にあわせてアンケートを収集し,それに関する分析を通じて分析手法を学ぶ.広く一般市民を対象として調査したいアンケート項目を第2講までに考えてくること.
#### 教科書
特になし,資料を用意する.
#### 参考書
適宜紹介する.
#### 成績評価の方法
平常点30%,小課題20%,プレゼンテーション50%
>* 平常点:授業評価アンケート,その他授業中に行う調査等の回答状況などの授業への積極性を評価する.
* 小課題:スキルチェックのための簡単な課題を課す.
* プレゼンテーション:学期末に実施する.
#### その他
社会調査士資格<E>区分の認定科目である.<F>科目と選択必修であり,本講義は「データ解析論II」と併せて履修することで<E>科目として認定される.
### 参考:データ解析論II(後期科目)
#### シラバスの要約
* Rを使って,データ解析論Iに引き続き,より高度な分析手法を学ぶ.
* 分析手法として,**一般化線形モデル**,**一般化線形混合モデル**や**因子分析**,**時系列分析**を学ぶ.
* **ランダム化比較実験**,**マッチング法**,**不連続回帰**,**操作変数法**といった実験・調査・分析デザインに関わる話題まで触れる.
* 因子分析や時系列,一般化線形混合モデル等の代わりに,機械学習的なテーマ(分類)に関わる話等に触れることを検討している.
- 今の時代に流行っている技術の基礎を学ぶことは,決して損ではないはず.
* 最後はプレゼンテーションを評価する.
- プレゼンテーション資料をもとにしたレポート資料についても評価する.
* **社会調査士資格<E>区分の認定科目である.**
- <F>科目と選択必修であり,本講義は「データ解析論I」と併せて履修することで<E>科目として認定される.
*以下シラバス*
***
#### 授業の概要・到達目標
データ解析論IIでは,データ解析論Iで学んだ統計手法をもとに,フリーソフトであるRを用いて,より発展的な分析手法について学ぶ.
具体的には,一般化線形モデル,一般化線形混合モデルや因子分析,時系列分析といった分析手法から,ランダム化比較実験,マッチング法,不連続回帰,操作変数法といった実験・調査・分析デザインに関わる話題まで触れる.
なお,「データ解析論II」は「データ解析論I」とあわせて履修することで社会調査士資格<E>区分の認定科目となっている.社会調査士取得を目指す学生は確認しておくこと.
到達目標は以下の通りである.
1. 各統計手法について,その目的と意義を説明することができる.
2. 各統計手法について,各自で分析を実行できる.
3. 分析結果について,適切に他者に説明できる.
#### 授業内容
* 【第1講】イントロダクション
* 【第2講】一般化線形モデル①
* 【第3講】一般化線形モデル②
* 【第4講】一般化線形混合モデル①
* 【第5講】一般化線形混合モデル②
* 【第6講】因子分析①
* 【第7講】因子分析②
* 【第8講】時系列分析①
* 【第9講】時系列分析②
* 【第10講】ランダム化比較実験
* 【第11講】マッチング法
* 【第12講】回帰不連続デザイン
* 【第13講】操作変数法・発表準備
* 【第14講】プレゼンテーション
※ただし,履修者の状況により内容を一部変更することがある.
#### 履修上の注意
データ解析論Iの履修を前提とする.
この授業ではRおよびRStudioを用いる.授業でも紹介するが,自宅のPCでもRおよびRStudioをインストールしておくこと.
#### 準備学習(予習・復習等)の内容
この授業では,各自の興味関心にあわせてアンケートを収集し,それに関する分析を通じて分析手法を学ぶ.広く一般市民を対象として調査したいアンケート項目を第2講までに考えてくること.
#### 教科書
特になし,資料を用意する.
#### 参考書
適宜紹介する.
#### 成績評価の方法
平常点30%,小課題20%,プレゼンテーション50%
>
* 平常点:授業評価アンケート,その他授業中に行う調査等の回答状況などの授業への積極性を評価する.
* 小課題:スキルチェックのための簡単な課題を課す.
* プレゼンテーション:学期末に実施する.
#### その他
社会調査士資格<E>区分の認定科目である.<F>科目と選択必修であり,本講義は「データ解析論I」と併せて履修することで<E>科目として認定される.
### 【第1講】
#### イントロダクション
* 授業の概要の紹介.
#### 統計学を学ぶ意義
* 統計学(データサイエンス):データから有用な情報・知識を引き出したり,新たな**価値あるデータ**を創造するための基本的な考え方
- 「わからない」ってことも価値あるデータ
- 平均・分散を算出したり,全体的な傾向を把握するために**可視化**するのは有用な情報・知識を引き出すため.
- プログラムを組んで,新たに価値あるものを作る.
* データサイエンスを学ぶと何がどうなる?
- 「データ」に基づいた思考方法が身につく
- 「見せかけの類似性」に騙されなくなる.
- 日常生活・ビジネスへの応用可能性が広がる
* 「血液型占い」:血液型によって性格が異なる.
- 「データ」に基づくと,血液型によって性格が異なるとはいえない([参考](http://nawatakengo.web.fc2.com/works/jjp2_abst_jp.htm)).
* 見せかけの類似性:相関関係と因果関係.
- 「データ」はモノを考えるのに大事なことだが,「数字」や「見た目」に騙されてはいけない.
- その他の要因が影響している可能性がある([参考](https://books.google.co.jp/books?id=cS28AAAAQBAJ&lpg=PA7&ots=xinNwUQYVT&dq=ice%20cream%20and%20drownings%20john%20list&hl=ja&pg=PA6#v=onepage&q&f=false)).
#### この授業で用いる言語について
* 統計計算とグラフィックスのための言語・環境
- GNUプロジェクトの一つ.
- AT&T(当時)のベル研究所でJohn M. Chambersと同僚により開発されたS言語・環境に類似
- 現在は"The R Core Team"を中心として開発が進められている.
* Rは様々な統計手法や表示方法を提供している.
- 線形・非線形モデル・古典的統計検定・時系列解析・判別分析・クラスタリング・その他
- その他,マルチレベルモデリング(線形混合モデル),分位点回帰分析や一般”化”線形混合モデルなど,最新の手法も利用可能.
* 出版物並みのクオリティのプロットを容易に作成可能.
- 必要に応じて数学記号や式を含めること可能
- グラフィックスの標準設定でも十分にデザイン性が高いが,ユーザーが完全につくり上げることも可能.
```{r echo=TRUE}
jibanyan_equation <- function(x,y) {
min(max(min(1-(x/108)^2-(y/94)^2,y),min(1-((abs(x)-119)/103)^2-((y-56)/86)^2,1-((abs(x)-15)/77)^2-((y-119)/100)^2),1-((abs(x)-42)/66)^2-(y/55)^2,min(55+y,51-abs(x),-y)),3*abs(y-100)-2*(x-75)) *
min(min(max(min(1-(x/106)^2-(y/92)^2,y),min(1-((abs(x)-119)/101)^2-((y-56)/84)^2,((abs(x)-99)/40)^2+((y-54)/86)^2-1,92-abs(x)),1-((abs(x)-42)/64)^2-(y/53)^2),min(((abs(x)-52)/26)^2+((y+28)/26)^2-1,((abs(x)-51)/13)^2+(y/13)^2-1,max(abs(x)-51,y))),abs(x/51+10/51*sin(abs(y/61.2)^(1.2)*pi*(7/2)))^(2/3)+abs(y/61.2)^(2/3)-1) *
min(1-(x/32)^2-((y+30)/32)^2,1-((abs(x)+5)/22)^2-((y-18)/22)^2) *
min(1-((abs(x)-18)/20)^2-((y+10)/20)^2,((abs(x)-20)/22)^2+((y+7)/20)^2-1) *
(1-((abs(x)-51)/11)^2-(y/11)^2)
}
x <- seq(-150, 150, length=400)
z <- outer(x,x, Vectorize(jibanyan_equation))
contour(x,x,z, drawlabels=FALSE, levels=0)
```
こんなこともできる.
* RはFree Software FoundationのGNU General Public Licenseの条項のもとで,ソースコードの形で入手可能.
- 様々なUNIX(Linuxを含む)・Windows・MacOSで,ダウンロードすればそのまま使用可能.
* Rを単体で使うとコードの管理や再現可能性が難しい.
- そのためにRStudioをIDE(統合開発環境,Integrate Development Environment)として用いる.
#### 自宅のパソコンでダウンロードをする場合はこちらから
* **[R](https://www.r-project.org/)**
* **[RStudio](https://www.rstudio.com/)**
- インストールの方法がわからなければ,ゴトウまで.
#### Google アカウントの取得
* Googleアカウントを持っていない人orプライベートで使っているから公開したくない人は新たに作成しましょう.
- **[Google アカウントの作成](https://accounts.google.com/signup)**
### 【第2講】
#### アンケート項目の検討・データの整理①
* この講義では,実際にオンライン上でアンケート調査を実施し,データを取得した上で分析を中心とする.
* そのために,自身の興味・関心のある項目について質問項目を考えてもらい,質問項目の作成を行う.
- ただし,こちらでもいくつかの項目を用意するので,あわせて分析をするとよい.
* 「帰無仮説」と「対立仮説」および「データの分類」を復習しておくとよいでしょう.
* この辺は基本的なことでもあるので,軽く復習しておきましょう.
量的/質的 | データの名称 | 測定尺度 | 直接できる演算 | 主な代表値
--- | --- | --- | --- | ---
量的データ | 比率データ | 比率尺度 | +-×÷ | 各種平均
量的データ | 間隔データ | 間隔尺度 | +- | 算術平均
質的データ | 順位データ | 順位尺度 | >= | 中央値
質的データ | カテゴリデータ | 名義尺度 | 度数カウント | 最頻値
(参考:入門統計学-検定から多変量解析・実験計画法まで-(栗原伸一))
* Rを用いた基本的な演算(加減乗除)等についても確認をする.
#### あわせてデータの整理の仕方(必要なデータだけを取り出すなど)を紹介する.
### 【第3講】
#### データの整理②
* 実施した調査によるデータ(調査が間に合わなければ,その他のデータ)を用いて,
記述統計量の算出手法について学ぶ.
* 平均・分散・標準偏差・度数など.
- 過去に学んだことの復習なので,しっかりと確認しておきましょう&Rでの算出方法を身に着けましょう.
```{r dataを読み込む, echo=TRUE}
library(readr)
exdataset <- read_csv("/Users/akira/Dropbox/Education/2019MEIJI/[3_Wed2]Data_Analytics/analysis/data/exdataset.csv")
library(ggplot2)
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))
## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))
```
#### **平均値**を算出してみる.
主観的幸福度(SUB_HAP)の平均値
```{r 主観的幸福度の平均値, echo=TRUE}
mean(exdataset$SUB_HAP)
```
#### **分散**を算出してみる.
主観的幸福度(SUB_HAP)の分散
```{r 主観的幸福度の分散, echo=TRUE}
var(exdataset$SUB_HAP)
```
#### **標準偏差**を算出してみる.
主観的幸福度(SUB_HAP)の標準偏差
```{r 主観的幸福度の標準偏差, echo=TRUE}
sd(exdataset$SUB_HAP)
```
主観的幸福度(SUB_HAP)のヒストグラム
```{r 主観的幸福度のヒストグラム, echo=TRUE}
g <- ggplot(exdataset, aes(x = SUB_HAP)) + geom_histogram(binwidth = 1.0)
g
```
#### **頻度**を数えてみる.
```{r 運命の頻度, echo=TRUE}
table(exdataset$SPN_UNM)
```
#### ついでにヒストグラムも作ってみよう
```{r 運命のヒストグラム, echo=TRUE}
g <- ggplot(exdataset, aes(x = SPN_UNM)) + geom_histogram(binwidth = 1.0)
g
```
#### 世代の頻度を数えてみる.
```{r 世代の頻度, echo=TRUE}
table(exdataset$F_GEN)
```
* 基本的には『関数』を用いた計算方法を紹介する.
#### 実はこんなこともできる.
```{r}
library(skimr)
skim(exdataset) %>% pander()
```
#### 調査データの修正作業
* 調査項目を整理し,コーディングを行う.
- Google Spreadsheet上で作業を実施,全員で共有する.
### 【第4講】
#### RMarkdownの記法①
* RMarkdown:
- R上でドキュメントを作成するツール
- **html**でも**Word**でも**htmlプレゼンテーション形式**でも報告可能
- もし得意な人がいればcssをいじって細かい設定をすることが可能.
- なかなかややこしいのでざっくりとでよいのじゃないかしら?
-
* **レポーティング**が重要!
- 分析した結果を他の人に伝える必要がある.
- 自身の記録としても残しておく必要がある.
* **再現性**が重要!
- 自身が行った分析を再度確認するために.
- 他の人にデータの分析結果の妥当性を確認してもらうために.
- コードと合わせて説明できることが望ましい.
- 授業の際には科学の抱える再現性の問題についても紹介する.
### 【第5講】
#### RMarkdownの記法②
* 第4講に引き続き,RMarkdownの記法について学ぶ.
* さらに,htmlのみならず,docxやhtmlスライド形式での出力形式についても学ぶ.
```
## テキストの修飾
*イタリック*
_イタリック_
**太字**
__太字__
~~取り消し~~
# 見出し1
## 見出し2
### 見出し3
#### 見出し4
##### 見出し5
###### 見出し6
# 数字なし箇条書き
* Item 1
* Item 2
* Item 2.1
* Item 2.2
# 数字あり箇条書き
1. Item 1
2. Item 2
1. Item 2.1
2. Item 2.2
# 改行
今日は
いい天気ですね。
文章中で改行をしたい場合には、半角スペースを3つ打つ。
#リンク
http://www.yahoo.co.jp
はヤフーのURL
[こちら](http://www.yahoo.co.jp)からヤフーに行けます。
# 引用文
学長は
> 今日の天気はよろしくない
と、おっしゃった
> 学長は
> > 今日の天気はよろしくない
> と、おっしゃった
という発言は、間違いである。とごとうは言った。
# コードブロック
```
ここに書かれているのはコードです。
```
Rにおける合計を求める関数は`sum()`です。
## 数式
$$1 + 1 = 2$$
$$x * y = 15$$
$$(身長) = (体重)\beta + \alpha + \epsilon_i $$
## 水平線
***
今日のお昼ご飯は何にしようかなぁ。
もう、最近仕事だらけでのんびりしたいなぁ。。。
---
```
### 【第6講】
#### 実証分析の手続き・クロス集計表の作成①
* 実証分析:**客観的に**たくさんのケースにまたがって多量のデータを収集した上で,**統計的**な手法によってそれを分析しようとする方法(森田, 2014).
- ただし,個別具体的な事例に踏み込んでの議論には合わないが,**一般性・客観性のある議論には適している**.
- 個別具体的な事例に踏み込んだ議論は分析者の主観的観点が含まれてしまうために,客観性に劣ってしまう.
* **クロス集計表**:複数の質問項目を組み合わせて集計する手法
- ex. 朝食を食べているか否か×深夜アルバイトしているか否かなど.
- 企業の中でも基本的な統計手法としてよく用いられている.
#### 組み合わせの数をカウントする.
* ex.地域ごとに子どもがいる人の数を数える.
```{r}
library(pander)
library(dplyr)
library(tidyr)
tablea<-exdataset %>% group_by(ARE, CHI) %>%
tally %>%
spread(ARE, n)
pander(tablea)
```
#### ヒートマップを作ってみよう
```{r, echo=T}
library(rpivotTable)
rpivotTable(exdataset)
```
* その他,企業レポートなどで用いられている整理手法についても学ぶ.
### 【第7講】
#### クロス集計表の作成②
* 引き続きクロス集計について学ぶ.
* さらに,**カイ2乗検定**についても学ぶ.
* カイ2乗検定:観測データが「期待」から乖離した程度の尺度であるカイ2乗統計量を用いた検定.
- 期待:ある仮定,普通は帰無仮説のもとでデータに期待すること.
### 【第8講】
#### (単)回帰分析
* 回帰分析:説明変数が**「量的変数」**,応答変数が**「量的変数」**の関係を明らかにするための手法.
* 基本的には以下の式で表される.
$$ \LARGE Y_i = \alpha + \beta_1 X_1 + \epsilon_i $$
* $Y_i$:**応答変数**(被説明変数,被独立変数,従属変数etc.)
* $X_1$:**説明変数**(独立変数etc.)
* $\beta$:**係数**(これを知りたい)
* $\alpha$:**切片**(これも知りたい)
* $\epsilon_i$は**誤差**を示し,回帰分析は誤差の正規分布を仮定している.
- この辺はまた改めて紹介する.
* イメージは中学校で学んだ1次関数.
- 2点を通る...から直線を推計したが,逆に複数の点に近い点を通った直線だと思うとよい.
* ex. ここでは説明変数を生活満足度,応答変数を主観的幸福度とする.
- したがって,数式は以下を示す.
$$ \LARGE Y_i = \alpha + \beta_1 X_1 + \epsilon_i $$
* $Y_i$:応答変数が主観的幸福度(0-10点)
* $X_1$:説明変数が生活満足度(0-10点)
- $X_1$には0から10までの値が入る.
* 書き換えれば以下の通り.
$$ \LARGE Y_i = \alpha + \beta_1 生活満足度 + \epsilon_i $$
#### 散布図と回帰直線を可視化する.
```{r, echo=T, fig.align='center'}
p <- exdataset %>% ggplot(aes(x=SUB_SAT, y=SUB_HAP))+
geom_point() + geom_smooth(method = "lm")
p
```
#### 回帰分析をRで走らせる.
```{r, echo=T}
model<-lm(SUB_HAP~SUB_SAT, data = exdataset)
summary(model) # 結果を単純に出すのはsummary()という関数を使う.
```
#### きれいに表形式で出力する場合
```{r, echo=T}
pander(model)
```
#### 出力結果を数式に入れ込むと以下の通り.
$$ \LARGE Y_i = `r coef(model)["(Intercept)"]` + `r coef(model)["SUB_SAT"]` X_1 + \epsilon_i $$
* 生活満足度(SUB_SAT)が1改善すると,主観的幸福度(SUB_HAP)が`r coef(model)["SUB_SAT"]` 改善する.また,生活満足度(SUB_SAT)が0のときには,主観的幸福度(SUB_HAP)が`r coef(model)["(Intercept)"]`であった.
### 【第9講】
#### t検定
* t検定:説明変数が**「2値の名義変数」**,応答変数が**「量的変数」**の関係を明らかにするための手法.
- **「2群の平均値の差の検定」**と呼ばれる.
#### 平均値の差を可視化する.
```{r, echo=T, fig.align='center'}
library(ggplot2)
library(dplyr)
graph <- exdataset %>% ggplot(aes(x=MAR, y=SUB_HAP)) +
geom_point(stat = 'summary', fun.y = 'mean') +
geom_errorbar(stat = 'summary', fun.data = 'mean_se',
width=0, fun.args = list(mult = 1.96)) +
theme_bw()+ylim(0,10)
graph
```
#### t検定をRで走らせる.
```{r, echo=T}
ttestmodel<-t.test(SUB_HAP~MAR, data = exdataset)
ttestmodel # t検定の時はそのままオブジェクトを入れればよい..
```
#### きれいに表形式で出力する場合
```{r, echo=T}
pander(ttestmodel)
```
#### でも,実は回帰分析とt検定は共通点があったりなかったり.
* **ダミー変数**という概念についても紹介する.
- 数字ではないデータを「0」と「1」だけの数字に変換する.
- Rでは自動的にダミー変数に変換してくれる.
* 今回の場合は未既婚(MAR)において未婚者(NotMarried)に0が割り振られており,既婚者(Married)に1が割り振られている.
#### ダミー変数とは
一般線形モデルではこんなモデル式から考える,というような話をしたかと思います.
$$Y_i=\alpha+\beta_1 X_1 + \epsilon_i $$
回帰分析では$Y_i$と$X_1$が共に量的変数であった場合を示していました.しかし,例えば$X_1$に入れたいのが未婚者か既婚者,という名義変数だったとします.この場合は,未婚者に対して0,既婚者に対して1という数字を割り当てると以下のように理解することができます.
* 0を割り振られた未婚者の場合
数式の$X_1$に0を代入しましょう.
$$Y_i=\alpha+\epsilon_i $$
こうすると,係数がなくなってしまいました.従って切片のみになります.
* 1を割り振られた既婚者の場合
数式の$X_1$に1を代入しましょう.
$$Y_i= \alpha+\beta_1 +\epsilon_i $$
こうすると未婚者に比べて,$X_1$の係数のみが増えています.したがって,0を代入した未婚者に比べて,既婚者の方が$\beta_1$の分だけ変化していることがわかります.
このように,0と1の数字を用いることで,0を割り振られたグループと1を割り振られたグループの間に差が存在するのか否かを評価することができます.
さらに,その「差」がどの程度あるのかも比較することができます.ここでは,主観的幸福度に未婚者と既婚者の間に差があるのか否か検証していきましょう.
```{r, echo=T}
ttestmodel_lm<-lm(SUB_HAP~MAR, data = exdataset)
summary(ttestmodel_lm) # t検定の時はそのままオブジェクトを入れればよい..
```
#### きれいに表形式で出力する場合
```{r, echo=T}
pander(ttestmodel_lm)
```
#### 出力結果を数式に入れ込むと以下の通り.
$$ \LARGE Y_i = `r coef(ttestmodel_lm)["(Intercept)"]` + `r coef(ttestmodel_lm)["MARMarried"]` X_1 + \epsilon_i $$
* 未婚者(MAR=0)の主観的幸福度(SUB_HAP)は`r coef(ttestmodel_lm)["(Intercept)"]`であり,既婚者(MAR=1)の主観的幸福度(SUB_HAP)は`r coef(ttestmodel_lm)["(Intercept)"]+coef(ttestmodel_lm)["MARMarried"]`であった.
### 【第10講】
#### 重回帰分析①
* 重回帰分析:説明変数が**複数**であり(名義変数.量的変数を問わない),応答変数が**「量的変数」**の関係を明らかにするための手法.
$$ \LARGE Y_i = \alpha + \beta_1 X_1+ \beta_2 X_2+ \beta_3 X_3+... + \epsilon_i $$
* $X_1$や$X_2$には**量的変数**が入ることもあれば,**名義変数**が入ることもある.
* まずは色々入れてみてから考えよう.
- 何のために入れるのか,入れることによって何がわかるのかをよく考える必要がある.
* 重回帰分析の複数のモデル
- 重回帰分析は説明変数に入れるものによって,複数のモデルが存在する.
- ここではそれらの例について紹介する.
| モデル式 | モデル名 | 説明変数 | 応答変数 |
| --------------------------------------------------- | ------------- | -------------- | -------- |
| $$Y_i=\beta_1X_1+\alpha_i+\epsilon_i$$ | 1要因分散分析 | 名義変数 | 量的変数 |
| $$Y_i=\beta_1X_1+\beta_2X_2+\alpha_i+\epsilon_i$$ | 2要因分散分析 | 名義変数 | 量的変数 |
| $$Y_i=\beta_1X_1+\alpha_i+\epsilon_i$$ | 単回帰分析 | 量的変数 | 量的変数 |
| $$Y_i=\beta_1X_1+\beta_2X_2+…+\alpha_i+\epsilon_i$$ | 重回帰分析 | 量的/名義変数 | 量的変数 |
| $$Y_i=\beta_1X_1+\beta_2X_2+\alpha_i+\epsilon_i$$ | 共分散分析 | | |
### 【第11講】
#### 重回帰分析②
* 分散分析:特に重回帰分析の中でも説明変数が**複数の名義変数**であり,応答変数が**「量的変数」**のときは分散分析という.
- データの**散らばり具合**を検証する手法.
- ここでは交互作用がある場合とない場合の2つの場合を紹介する.
#### 2要因で交互作用がある場合の例
2要因分散分析に進みたいと思います.2要因分散分析とは,複数の要因による影響を分析するものです.例えば,主観的幸福度は子の有無(1,0のダミー変数)だけでなく,結婚しているか否か(1, 0のダミー変数)によっても影響を受ける可能性があります.これを用いると「子がいない未婚者」「子がいない既婚者」「子がいる未婚者」「子がいる既婚者」の計4つの状態があります.
したがって,これらが影響を与えているかどうかを明らかにするために,いずれの要因についても投入したモデル式について考えたいと思います.ここでは,次のようなモデル式を考えたいと思います.
$$ \LARGE Y_i = \alpha + \beta_1 X_1+ \beta_2 X_2+ \beta_3X_2*X_3+... + \epsilon_i $$
このモデル式によって,「4つの状態」を分析することができます.一度整理してみましょう.
* $X_1 =1$と$X_2 =0$の場合
$$Y_i=\alpha+\beta_1 + \epsilon_i $$
- この場合,ある因子$X_1$ によって,$Y_i$が変化することを示しています.
- ex.子がいない独身者よりも,子がいる独身者の方が幸せ
* $X_1 =0$と$X_2 =1$の場合
$$ Y_i=\alpha+\beta_2 + \epsilon_i $$
- この場合,ある因子$X_2$ によって,$Y_i$が変化することを示しています.
- ex.子がいない未婚者よりも,子がいない既婚者の方が幸せ
* $X_1 =1とX_2 =1$の場合
$$Y_i= \alpha+ \beta_1 +\beta_2 +\beta_3 + \epsilon_i $$
- この場合,$X_1$ と$X_2$が影響する場合の値を示していることになります.特に,$X_1* X_2$ の係数である$\beta_3$が有意になる場合は,単純に$X_1$ と$X_2$が同じように影響を与えているだけでなく,組み合わさることによって効果が強まることを示しています.
- 「組み合わさることにより効果が変化する」ことを「交互作用」といいます.
- ex.子がいない未婚者よりも,子がいる既婚者の方が幸せ.
- 「子どもがいることによる幸福度の変化」や「結婚していることによる幸福度の変化」だけでは説明できない,「組み合わせによる変化」が存在している.
* $X_1 =0とX_2 =0$の場合
$$Y_i= \alpha+\epsilon_i $$
- この場合,全ての要因が影響しない場合(何らかの基準となる点)の値を示していることになります.
- ex.子がいない未婚者
### 【第12講】
#### 重回帰分析③
* 重回帰分析のチェック事項の確認
- 重回帰分析を行う場合には,**多重共線性(マルチコ)**を確認する必要がある.
- 多重共線性(Multicollinearity):説明変数同士の相関関係が大きすぎると適切な分析結果を導けない.そのために,VIF(Variance Inflation Factor:分散拡大要因)を指標として検討する.
* 重回帰分析におけるモデル選択方法:
- 検定によるモデル選択
- AICによるモデル選択
- 決定係数によるモデル選択
### 【第13講】
#### モデル選択・発表準備
* 提供されたデータを用いて,当初設定した興味があるテーマについて分析し,発表をする.
* ただし,最低でも以下の分析については発表が必要となる.
- クロス集計表
- t検定
- (単)回帰分析
- 重回帰分析
- 複数モデルによるモデル選択までを含む.
* それぞれについて,以下の手順で分析を実施して発表資料を作成する.
- 分析対象とするデータの記述統計量(平均値・中央値・四分位点)を算出する.
- 対立仮説と帰無仮説を立てる
- 図表を作成する
- 結果を適切に解釈する.
* 発表資料は原則としてRMarkdownを用いて作成する.
### 【第14講】
#### プレゼンテーション
* **個人**によるプレゼンテーション(の予定)
- 受講生の人数によってはグループプレゼンテーションになる可能性もある.
- もしくは,グループでプレゼンテーション&個人でプレゼンテーションをもとにしたレポート作成など.
### 参考文献など
#### 参考図書(和書)
*統計について*
* [小杉考司, 2019, 『言葉と数式で理解する多変量解析入門』, 北大路出版](https://www.amazon.co.jp/dp/476283047X)
- 非常に平易な言葉で多変量解析について説明がなされている.ただし,一歩戻って基本的RStudioの使い方と基本的な統計(t検定や回帰分析,カイ2乗検定など)を学ぶのであれば,[小杉考司, 2019, 『Rでらくらく心理統計 RStudio徹底活用』](https://www.amazon.co.jp/dp/4065144876)などもよいでしょう.
* [星野匡郎, 田中久稔, 2018, 『Rによる実証分析 ―回帰分析から因果分析へ―』, 裳華房](https://www.amazon.co.jp/dp/427421947X)
- Rを用いた様々な分析手法について記載されている.春学期の内容も含まれるが,主に秋学期の内容をカバーしている.
* [川端一光, 岩間徳兼, 鈴木雅之, 2018, 『Rによる多変量解析入門 - データ解析の実践と理論』, オーム社](https://www.amazon.co.jp/dp/4274222365/)
- 基本的な技術を学ぶことができる.かなり良書.
* [森田果, 2014, 『実証分析入門 - データから「因果関係」を読み解く作法』, 日本評論社](https://www.amazon.co.jp/dp/4535557934)
- 法律系の先生が書かれた本だが,なかなかわかりやすく面白い.どちらかというと秋学期の内容に関わる.
* [地道正行, 2018, 『データサイエンスの基礎 Rによる統計学独習』, 裳華房](https://www.amazon.co.jp/dp/4785315784)
- 細かく書かれているが,数式も多い.講義内で数学的説明の時間を十分に確保できないため,興味のある方はこちらへ.
*再現性の議論について*
* [高橋康介, 2018, 『再現可能性のすゝめ (Wonderful R 3)』, 共立出版](https://www.amazon.co.jp/dp/4320112431)
* [江口哲史(編), 2018『自然科学研究のためのR入門―再現可能なレポート執筆実践― (Wonderful R 4)』, 共立出版](https://www.amazon.co.jp/dp/432011244X)
- いずれの本も再現可能性のためにRStudioとRMarkdownの使い方について紹介した本.
*分析の一連の流れについて*
* [松村優哉, 湯谷啓明, 紀ノ定保礼, 前田和寛, 2018, 『RユーザのためのRStudio[実践]入門−tidyverseによるモダンな分析フローの世界』, 技術評論社](https://www.amazon.co.jp/dp/4774198536/)
- RStudioを用いたデータ収集,データ整形,可視化,レポーティングといった一連の分析の流れに関する本.
#### 参考図書(洋書)
*計量経済について*
* [Heiss, Florian, 2016, "Using R for Introductory Econometrics ", Amazon Digital Services](https://www.amazon.co.jp/dp/1523285133/)
- 洋書.Rを用いた計量経済学入門の教科書だが,手を動かしながら学んでいくことができる.
#### 参考web資料
*Rによる統計*
* [Rjpwiki](http://www.okadajp.org/RWiki/)
- Rに関する基礎知識の共有などが図られている.
* r-wakalang
- Slackのグループ.全く知らない人たちが色々質問に答えてくれたりも.
* [からだにいいもの](https://www.karada-good.net)
- Rに関する様々な情報が掲載されている.多少応用的なトピックが多い.
* [marketechlabo](https://www.marketechlabo.com/r-best-packages/)
- ちょっと新しいパッケージ等が紹介されていて興味深い
*RMarkdownの使い方*
* [R Markdown入門](https://kazutan.github.io/kazutanR/Rmd_intro.html)
- Rマークダウンに限らずデータ操作や可視化などの技術についても[他ページ](https://kazutan.github.io/kazutanR/index.html)で紹介している.
* [R Markdownで楽々レポートづくり](http://gihyo.jp/admin/serial/01/r-markdown/0001)
- 全8話のRMarkdownの操作方法について.この記事の内容は[高橋康介, 2014, 『ドキュメント・プレゼンテーション生成 (シリーズ Useful R 9)』, 共立出版](https://www.amazon.co.jp/dp/4320123727)をもとに作成されている.しかし,この記事を読めばよく分かる...
## Column {data-width=350}
### 今日のTake Home Messages
* データ解析論I(春学期)とデータ解析論II(秋学期)を履修しなければ,社会調査士E科目として認定されない.
* **[R](https://www.r-project.org/)**と**[RStudio](https://www.rstudio.com/)**というプログラムを用いる.
* **[Google アカウント](https://accounts.google.com/signup)**を作成しておく必要がある.
- 最初のデータ整理やグループワークに用いる.
* 自身で保有するパソコンにインストールすることをおすすめするが,様々な制約が存在する.
- ex.日本語(2バイト文字)でユーザ名やフォルダ名を作っていたらエラーが生じるなど.
* その場合は自宅で実施するために**[RStudio Cloud](https://rstudio.cloud/)**を用いることを推奨する.
- しかし,動作は今研究中なので対応できないことがあるかもしれません....
```{r}
```
### Rでデータを扱う時に注意すべきこと
* 必ず数字/文字は半角で入力する.
* 日本語は使わずにローマ字を使用する.
* コメントアウト(コードではなく,関係ないメモを入れること)をするときは半角の「#」から始める.
- メモする内容は全角でもよい.
* ファイル名およびパスには決して全角の文字(ひらがな,カタカナ,漢字,全角スペースなど)を入れてはいけない.
- 半角英数字だけにする.
* 慌てずに落ち着いて操作すれば,決して難しくない.
- 1つずつ落ち着いて作業することを心がける.
* 「わからない」ことを恐れない
- 周りの友人に聞いたり,教員に確認したりしよう.
# 演習問題
## 問題
### 問題
#### 演習問題:
* 以下の問題を回答してください.
- なお,提出はコードを提出するだけで良い.
* 今回はありません.
#### リアクションペーパー:
* 授業で学んだことおよび感想を下記リンクからお答えください.
[リアクションペーパー](https://forms.gle/jhMGgdhyb3sMgpWm7)
## Column {data-width=350}
### ヒント
* こんなことがかかわるかも?
- なんて,演習問題によってヒントが出たり何だりします.
- ヒントがない時は気合でがんばりましょう.
```{r}
```
# データの概要 {data-width=1100}
## Column {data-width=1100}
### データの頭10個
```{r}
library(DT)
DT::datatable(exdataset)
```
### 変数名リスト
#### 主観的指標
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ------------------------------------------------------------ | ------------------------------------------------ |
| 主観的幸福度 | SUB_HAP | 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* | 0点「とても不幸せ」-10点「とても幸せ」 |
| 生活満足度 | SUB_SAT | あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? | 0点「とても不満足」-10点「とても満足」 |
| 生活満足度 | SUB_SLP | あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? | 0点「全く眠れていない」-10点「とても眠れている」 |
#### 独裁者ゲーム
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ----------------------------- | -------------------- |
| 主観的幸福度 | DIC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| DG友人条件 | DIC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| DG他者条件 | DIC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 最終提案ゲーム_提案者
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------------- | -------------- | ----------------------------- | -------------------- |
| 最終提案提案者両親条件 | ULT_PRO_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案提案者友人条件 | ULT_PRO_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案提案者他者条件 | ULT_PRO_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 最終提案ゲーム_応答者
図を見て下さい.
あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------------- | -------------- | ----------------------------- | -------------------- |
| 最終提案応答者両親条件 | ULT_REC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案応答者友人条件 | ULT_REC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案応答者他者条件 | ULT_REC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 信頼ゲーム
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ----------------------------- | -------------------- |
| 信頼両親条件 | TRU_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 信頼友人条件 | TRU_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 信頼他者条件 | TRU_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 自然関連
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------- | ------------------------------------------------------------ | --------------------------------- |
| 自然運命 | SPN_UNM | 何かの大きな力に自分の運命は動かされているように感じることがある. | 1全くそう思わない-4非常にそう思う |
| 自然感謝 | SPN_THK | 自然などの人間を超えた力に感謝の気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然恐怖 | SPN_FEA | 自然などの人間を超えた力に恐れの気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然生存 | SPN_LIV | 自然などの人間を超えた力によって,生かされていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | SPN_IMP | 自然は大切な存在である. | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 監視
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------- | -------------- | ------------------------------------------------------------ | --------------------------------- |
| 第2者被監視感 | KAN_SEC | 日常生活の中で,直接誰か(人間)に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第3者被監視感 | KAN_THI | 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 超自然的被監視感 | KAN_SUP | 日常生活の中で,超自然的な存在に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第2者被監視感 | KAN_PRD | 無機物の中に,人間の表情のようなものを見出すことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | KAN_KYK | 人に対して共感をすることがある. | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 死後
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------- | -------------------------------------- | --------------------------------- |
| 死後世界 | DED_SHI | 「死後の世界」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天国 | DED_TEN | 「天国」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 地獄 | DED_JIG | 「地獄」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 奇跡 | DED_KIS | 「奇跡」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天罰 | DED_PUN | 「天罰」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 性行動
以下の質問についてお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------- | ---------------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 性衝動 | SEX_IMP,SEX_IMP_num(数値,欠損値有り) | あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. | 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない. |
| 自慰回数 | SEX_MAS,SEX_MAS_nen(年間回数): | あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性交渉回数 | SEX_SEX,SEX_SEX_nen(年間回数) | あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性衝動対象 | SEX_OBJ | あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. | 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない |
| 天罰 | SEX_NIN,SEX_NIN_cen(中央値) | あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. | 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」 |
| 性情報開示 | SEX_NNA | 性情報に対して開示しなかった個数 | 上記5つについて答えたくないを選んだ個数 |
| | | | |
#### フェイスシート
あなたのことについて教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 性別 | F_SEX | あなたの性別を教えて下さい. | 1.男性, 2.女性,3.その他 |
| 世代 | F_GEN | あなたの年齢を教えて下さい. | 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降 |
| 最終学歴 | F_FGR | あなたの最終学歴を教えて下さい. | 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了 |
| 個人収入 | F_INK,F_INK_cen(中央値,百万円) | あなた個人の年収を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 世帯収入 | F_INS,F_INS_cen(中央値,百万円) | あなたの世帯での収入の合計を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 回答端末 | F_TAN | あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. | 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他 |
| 都道府県 | PRE | あなたのお住まいの県を教えて下さい. | 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 地域 | ARE | 都道府県から地域に変換 | 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県|
| 未既婚 | MAR | あなたはご結婚されていますか? | NotMarried:未婚,Married:既婚 |
| 子の有無 | CHI | あなたはお子さんがいらっしゃいますか? | NoChild:いない,Child:いる |